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Апаратне розшзнавання рядюв 
в 1нтелектуальних системах захисту 1нформаци 


При создании интеллектуальных систем противодействия таким угрозам информационной безопасности, 
как сетевые вторжения, вирусы и спам, необходимо анализировать интенсивный поток данных на наличие 
одновременно нескольких тысяч эталонных последовательностей символов. Для достижения требуемой 
производительности часто используют аппаратные решения на базе программируемых интегральных 
схем. В настоящей работе исследован зарубежный опыт подобных разработок, предложено применение 
унифицированных изделий. 

Ключевые слова: множественное распознавание строк, информационная безопасность, 
ПЛИС, реконфигурируемый вычислитель 
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Введение 


Задача поиска заданной подстроки в потоке символов, как частный случай более 
общей задачи распознавания образов, возникает во многих прикладных областях, связан- 
ных с обработкой информации, таких, как интеллектуальный анализ данных (4аа пп), 
оптимизация транзакций в СУБД, измерение скоростных характеристик и оперативный 
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мониторинг сетевого трафика, поддержка технологий Ооз (ОпцаШу оЁ Зегутсе — качество 
обслуживания) и ПР-телефонии, распознавание цепочек атомов и их комбинаций в мо- 
лекулярной биологии и др. 

Актуальна данная проблема и при создании систем информационной безопасности. 
Непрерывно растущие объемы данных и сетевого трафика в корпоративных, удаленных 
и распределенных сетях (грид, облачные вычисления) при остановившемся росте такто- 
вой частоты процессорных устройств снижают эффективность программных решений. 
Как следствие, только аппаратные компоненты способны обеспечить приемлемые по- 
казатели производительности и время реакции для современных систем защиты данных. 

Анализ информационных источников свидетельствует о наличии большого ко- 
личества англоязычных разработок по аппаратным средствам защиты информации, в 
том числе на базе программируемых логических интегральных схем (ПЛИС). Однако в 
литературе, издаваемой в странах СНГ, фактически отсутствуют публикации на данную 
тему. 

В настоящей работе проанализирован мировой опыт и особенности использо- 
вания реконфигурируемых устройств для реализации аппаратного распознавания строк 
в системах защиты информации. Для повышения эффективности процесса разработки 
систем распознавания на базе программируемой логики предложено использование ти- 
повых изделий — реконфигурируемых унифицированных вычислителей. 


Задачи распознавания в информационной безопасности 


Необходимость поиска заданных образцов строк в интенсивном потоке данных 
возникает при решении различных задач информационной безопасности, таких как об- 
наружение вторжений, антивирусная защита, борьба со спамом. Актуальна она и для 
появившегося относительно недавно направления, связанного с предотвращением потери 
корпоративных данных, — так называемые ОГ.Р-системы (Рава Г.05$5 Ргеуепвоп). 

Поскольку перечисленные задачи, как правило, приходится решать в комплексе, 
возникли и интенсивно развиваются интегрированные системы информационной без- 
опасности — Ошйеа Тргеаё Мапасетепе (ОТМ). Такие системы объединяют в себе 
функциональность межсетевых экранов, антивирусов, спам-фильтров, средств инфор- 
мационной защиты контента. 

Несмотря на различное назначение функций, выполняемых ОТМ-системами, при 
их реализации приходится решать сходную задачу выявления заданной строки (точнее, 
набора строк) в информационном потоке. 

Исторически первыми разработками в сфере защиты информации, для которых 
началось практическое освоение аппаратных подходов к распознаванию строк, яви- 
лись системы обнаружения вторжений (СОВ). Как следствие, данная область оказа- 
лась наиболее исследованной, для нее имеется большое число успешных наработок [1]. 
По этой причине в настоящей работе решение задачи распознавания строк с приме- 
нением реконфигурируемых устройств рассматривается на примере СОВ. 


Системы обнаружения вторжений 


Структура СОВ в зависимости от назначения и особенностей применения может 
состоять из различных компонентов [2], но в обязательном порядке содержит один или 
несколько сенсоров. В состав сенсора, в свою очередь, обязательно входит модуль об- 
наружения атак, который выполняет ресурсоемкую операцию распознавания строк в ин- 
тенсивном потоке сетевых пакетов. 
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Алгоритм функционирования системы обнаружения атак в общем случае со- 
стоит из трех этапов: 

— захват сетевых пакетов (расКе{ сархге); 

— фильтрация и сборка пакетов (ИЦепио / Гастетайоп геаззет У); 

— распознавание (ра цегп та1п). 

Самым ресурсоемким является последний этап, который сводится к выполнению 
большого количества операций сравнения содержимого сетевых пакетов со строками 
символов, содержащимися в базе данных признаков известных атак (сигнатур). 

Анализ сетевого трафика может осуществляться двумя способами: путем тоталь- 
ного захвата и инспектирования всех пакетов либо с учетом сетевых протоколов (с раз- 
боркой заголовков пакетов). Системы, основанные на первом способе, распознают 
большее число атак, но они значительно сложнее в своей реализации. По этой причине в 
исследуемых источниках преимущественно описываются системы, учитывающие про- 
Токолы. 

База данных известных атак помимо эталонных последовательностей строк содер- 
жит правила их распознавания. Но обработка правил (анализ заголовков сетевых пакетов) 
производится по алгоритмам, которые давно и успешно применяются в межсетевых 
экранах. В исследовательском плане намного больший интерес представляет собственно 
задача поиска строк в потоке данных (анализ содержимого сетевых пакетов). 

Ключевым компонентом СОВ является модуль распознавания, выполняющий 
самую ресурсоемкую вычислительную операцию поиска. От качества его реализации в 
значительной степени зависят такие важные характеристики системы обнаружения 
вторжений, как производительность, ресурсоемкость и масштабируемость [3]. 

В связи с постоянным ростом числа и сложности компьютерных атак, а также 
из-за значительного увеличения объемов данных, передаваемых в сети, в качестве 
аппаратной основы СОВ получили широкое распространение ПЛИС типа Неа 
Ргостаттае Сае Аггау (ЕРОА) [4]. 

Современные СБИС программируемой логики, содержащие миллионы эквивалент- 
ных логических элементов на одном кристалле, позволяют достичь скорости обработки 
информационного потока в несколько Гбит/сек для баз эталонов емкостью в несколько 
тысяч записей [5], [6]. 

Рассмотрим структурные и функциональные особенности систем обнаружения 
вторжений, а также основные принципы применения программируемой логики для 
их построения. 


Требования, предъявляемые к СОВ на базе ПЛИС 


Проведенный анализ известных разработок позволяет сформулировать требова- 
ния, предъявляемые к аппаратным средствам на базе ПЛИС, используемых в качестве 
платформы для построения систем обнаружения вторжений, а также основные пара- 
метры, по которым следует оценивать их эффективность [7-9]. 

Главными показателями производительности СОВ являются: максимальное число 
строк, распознаваемых системой, и пропускная способность, которая может при этом 
быть достигнута. 

Однако на практике намного более важной и труднодостижимой характери- 
стикой архитектуры СОВ оказалась масштабируемость — способность наращивать 
возможности в широких пределах без несоизмеримо высоких дополнительных затрат. 
Актуальность данного свойства технического решения системы обнаружения втор- 
жений обусловлена, с одной стороны, стремительным ростом сетевого трафика, с 
другой — постоянным увеличением размеров базы данных сигнатур. 


«Штучний 1нтелект» 12012 261 


Гильгурт С.Я. 
ы 


Важной характеристикой СОВ, также связанной с производительностью, является 
предсказуемость пропускной способности, то есть независимость ее временных характе- 
ристик от состава входных данных. Обнаружение злонамеренного контента в сетевом 
трафике является редким событием, вероятность возникновения которого в штатном ре- 
жиме невелика. Однако если содержимое анализируемых сетевых пакетов существенно 
влияет на быстродействие модуля распознавания СОВ, то такая система может оказаться 
уязвимой к намеренному засорению злоумышленником сетевого трафика элементами 
сигнатур известных атак. 

Специфической чертой систем обнаружения вторжений, принцип действия которых 
основан на распознавании сигнатур, является необходимость регулярного обновления 
активной базы данных. Удобство динамического обновления существенно влияет на 
практическую полезность технического решения. Данный показатель затрагивает такие 
моменты, как возможность обновления базы сигнатур без приостановки процесса рас- 
познавания, способность обходиться без перепрограммирования ПЛИС, либо, в против- 
ном случае, наличие средств автоматической генерации и загрузки в ПЛИС новой конфи- 
гурации, а также удобство и скорость выполнения данной операции. 

Независимость от состава базы данных сигнатур также является важной ха- 
рактеристикой СОВ. Ориентация модуля распознавания на ограниченный алфавит с 
целью повышения быстродействия может привести к нежелательным последствиям при 
его использовании в распознающих системах. 

Помимо скоростных характеристик систем обнаружения вторжений, для их практи- 
ческого использования важны также стоимостные показатели. Объем оперативной па- 
мяти, необходимой для реализации выбранного алгоритма распознавания существенно 
влияет, в итоге, на быстродействие. Если имеющихся в ПЛИС ресурсов быстро- 
действующей блочной памяти (ВКАМ) недостаточно для реализации запоминающего 
устройства, то возникает необходимость во внешней памяти, которая намного медленнее 
внутренней. 

Существенной является также общая стоимость реализации системы. Каким 
бы эффективным ни был модуль распознавания, если для его интеграции в СОВ 
необходимы существенные дополнительные затраты, например, на преобразование 
формы представления информации, общая стоимость решения может оказаться не- 
удовлетворительной. 


Параллельное распознавание строк 


Как указывалось выше, модуль распознавания строк является наиболее важным 
компонентом СОВ, от успешной реализации которого во многом зависят рассмотрен- 
ные показатели эффективности. Следовательно, выбор алгоритма распознавания и тех- 
нического решения для его реализации являются ключевыми моментами при создании 
систем обнаружения вторжений. 

Однако задаче множественного распознавания строк в значительной степени свой- 
ственен параллелизм, причем, по двум направлениям: во-первых, несколько сетевых 
пакетов могут анализироваться одновременно; во-вторых, сравнение может произво- 
диться сразу со многими подстроками из базы данных сигнатур [10]. Рассмотрим эти 
направления возможного распараллеливания. 

К сожалению, при реализации параллелизма первого типа возникает трудноразре- 
шимое противоречие: разделение интенсивного входного потока на болышое число 
отдельных блоков, обрабатываемых независимыми вычислительными модулями, при- 
водит к задержкам, пропорциональным коэффициенту распараллеливания, обусловлен- 
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ным большим размером блоков; уменышение же размера блоков снижает полезность 
распараллеливания из-за эффекта перекрытия, тем более ощутимого, чем длиннее ис- 
комые подстроки. К тому же такой подход требует реализации сложных процессов 
управления, планирования и буферизации [9]. 

Распараллеливание по базе сигнатур, то есть разделение набора распознаваемых 
подстрок на подгруппы также возможно. Но в этом случае обнаруживается важная 
особенность — большое число сигнатур во многом повторяют друг друга. 

Причем данный эффект самоподобия в силу конечности алфавита теоретически 
должен возрастать по мере роста баз данных сигнатур. Учет такого эффекта позволяет 
существенно повысить производительность распознающей подсистемы. Однако упомя- 
нутые выше одношаблонные алгоритмы непригодны для данной цели. 

Таким образом, возникает теоретическая проблема множественного распознава- 
ния строк [9]. Ее суть заключается в одновременном поиске во входной последова- 
тельности символов не одной подстроки, а заданного набора подстрок, различные 
фрагменты которых повторяются в значительной степени. Известные способы рас- 
параллеливания не позволяют добиться приемлемого результата в силу указанных 
выше причин. Следовательно, эффективное решение данной задачи можно получить 
лишь на уровне алгоритма или вычислительной структуры. 


Подходы к построению модуля распознавания 


В существующих на сегодняшний день системах аппаратного распознавания строк 
задействованы разнообразные подходы, приемы и технические решения. Наиболее рас- 
пространенными из них являются [9]: 

— цифровые автоматы; 

— параллельные дискретные компараторы; 

— устройства ассоциативной памяти и ее разновидности; 

— различные варианты использования хэш-функций, в частности, фильтры Блума. 

Для большинства подходов возможно применение конвейеризации. При кла- 
стеризации словаря эталонных строк используют методы теории графов. 

Каждое из упомянутых направлений имеет как некоторые преимущества перед 
другими, так и недостатки. Например, цифровые автоматы, синтезированные в ПЛИС, 
не обеспечивают высокую пропускную способность, сложны в построении и кон- 
фигурировании. Параллельные компараторы при большей производительности при- 
водят к повышенным затратам оборудования и плохой масштабируемости. Решения, 
основанные на ассоциативной памяти, менее требовательны к ПЛИС, чем цифровые 
компараторы при соизмеримой производительности, но дороже и потребляют больше 
энергии. Фильтр Блума и сокращение аппаратных затрат функциями кэширования поз- 
воляют уменьшить число сравнений, но обеспечивают вероятностное распознавание, что 
требует дополнительных затрат на доуточнение результатов совпадения. 

Таким образом, ни один из упомянутых направлений не удовлетворяет в полной 
мере сформулированным выше требованиям, предъявляемым к системам обнаруже- 
ния вторжений. 

Следует также отметить наметившуюся в последние годы тенденцию к объеди- 
нению в одном устройстве нескольких подходов и решений. При этом наиболее эф- 
фективным оказывается такое комбинирование, при котором учитываются особенности 
конкретного словаря эталонов, в частности, производится ранжирование распознаваемых 
строк по их длине. 
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По мере увеличения числа и сложности сетевых компьютерных атак, а также 
из-за прекратившегося роста частоты микропроцессоров, программная реализация 
систем обнаружения вторжений становится все более проблематичной. Размеры баз 
сигнатур современных СОВ исчисляются тысячами записей. Именно по этой причине 
в настоящее время существенно возрос интерес к реализации данных систем на базе 
программируемых интегральных схем типа ЕРОА [11]. Высокая гибкость программи- 
руемой логики в сочетании с быстродействием аппаратного решения позволяют эф- 
фективно использовать естественный параллелизм, присущий задаче распознавания 
строк, которая является наиболее ресурсоемкой операцией в современных системах 
обнаружения вторжений. 

Одна из главных трудностей практического применения программируемой логики 
обусловлена высокой стоимостью и трудоемкостью процесса разработки реконфи- 
гурируемых ускорителей, присущая любому аппаратному решению. С другой сто- 
роны, высокая гибкость и универсальность ПЛИС позволяют стандартизовать такие 
устройства и выпускать их в виде унифицированных изделий, что позволит снизить 
стоимость в результате массового производства и упростить использование за счет 
разделения труда разработчиков. 

В настоящей работе в качестве опытной платформы для исследования алгоритмов 
распознавания строк используются реконфигурируемые унифицированные вычисли- 
тели (РУВ) [12]. Их применение позволяет в процессе проведения вычислительных 
экспериментов оперативно загружать разработанные структуры в ПЛИС, а также обес- 
печивать эффективное взаимодействие с центральным процессором компьютерной си- 
стемы. 

В работах [13-15] проанализированы предпосылки возникновения РУВ, обос- 
нованы структура и состав таких устройств; исследованы возможные интерфейсы и 
типовые режимы обмена данными с центральным процессором вычислительной 
системы; проанализированы сложности использования и пути их решения; рас- 
смотрены примеры реализации и организационные мероприятия, содействующие 
широкому распространению; исследованы категории сопутствующего программного 
обеспечения; обозначены перспективные области применения. Одной из областей 
применения, в которой преимущества РУВ способны проявиться в наибольшей сте- 
пени, признаны задачи информационной безопасности. 


Выводы 


В настоящей работе проанализированы существующие программно-аппарат- 
ные системы распознавания строк в интенсивном потоке данных. Рассмотрены наи- 
более результативные подходы и методы аппаратного ускорения на базе ПЛИС, 
применяемые в системах обнаружения вторжений. Проанализированы их преиму- 
щества и недостатки, приведены ссылки на конкретные разработки. 

Следует заметить, что наличие большого числа различных по своей природе 
направлений, конкурирующих в течение нескольких лет, которое не привело к вы- 
явлению лидирующего метода, существенно опережающего другие подходы по ос- 
новным показателям, подводит к заключению, что техническую задачу распознавания 
строк в реальном масштабе времени в современных системах защиты информации 
пока еще не следует считать решенной. 
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Натауаге тте Масйте т ше ГиеПесша[ 5есигйу 5уяйету 

Гиееса| зесигиу зузепл$ аге ап еНеснуе юо| ог деесйпе уапои$ @геа зисВ аз 
11605101, Упа$ апа зрат. ТВе Рапсвоп$ оЁ засВ зу$епта$ гу оп пш@-рацега зале такте 
\ШсВ $сапз фе 1приЕ $беат ю Впа аП оссштепсез оЁ а ргедейпе4 зе оЁ зи1пе-Базе4 рацеги$ 
тафег Фап а за&е рацегп. ие © Ше ехрозуе ото\мВ оЁ пебмогК гаЁйс, пи]-райеги зе 
тасыте Баз Бееп а та]ог ре{огтапсе Боепеск ш засВ зузет$ ус ВБауе © зсап фе 
шсотше ас ш геа| Чите оп Ёа$ё ПпК$ (е.с. 10 ОБрз Ефегпее апд Беуоп9). 

ОСепега] ригрозе СРИ$ аге по аЫе о {аКе адуатаее оЁ Фе ауаПаЫе рагаПейзт ш Фе 
5блие таксы? (азК$ юг шюЮгтайоп зесигу. Еог Фезе геазоп$, зоЙ\аге-Базе4 шизюп 
деесйоп зузет$ (10$) аге овеп ипаЫе тю Кеер ир ул Ше даа гаез оЁ то4еги ш26-зрееа 
песуок$. Аз а теапз оЁ пиргоуше Фе ре{огтапсе оЁ зисВ аррИсайопз$, гезеагсКег$ Вауе 
(игле 1ю гесопйгига Ме сотрийпе р]аФопитз у’Веге райегп-тасыте орегайопз$ сап Бе 
зупйез17е4 шт сизют БагА\аге. Кесепйу, тапу оЁ 05 агс/цесвгез Вауе ргорозеа Гог Неа9- 
РгостаттаЫе Сае Апшауз (ЕРОА5). 
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